• 2021 - 2022
  • Traitement Automatique des Langues

BOITES A OUTILS

Traitement textuel semi-automatique

  • BàO 1 : récupération des données

    Parcourir toute l'arborescence et extraire les contenus textuels de tous les fils…

  • BàO 2 : Etiquetage

    Les contenus textuels extraits doivent être étiquetés automatiquement (annotation en morpho-syntaxe et en dépendances)…

  • BàO 3 : Extraction terminologique

    Recherche et extraction de termes sur les données étiquetées ou de relations de dépendances…

  • BàO 4 : Présentation des résultats

    Des textes aux Graphes…

Projet en schéma

arbo-rss-bao-details

Corpus de travail : Fils RSS du journal Le Monde

Le format « RSS » (traduisez « Really Simple Syndication ») permet ainsi de décrire de façon synthétique le contenu d'un site web, dans un fichier au format XML, afin de permettre son exploitation par des tiers. Le fichier RSS, appelé également flux RSS, canal RSS ou fil RSS, contenant les informations à diffuser, est maintenu à jour afin de constamment contenir les dernières informations à publier.

Nous allons travailler sur 17 fils RSS archivés une fois par jour (19h00) sur toute l'année 2021.

  • Composants du RSS

    Un fil RSS est un fichier contenant le titre de l'information, une courte description et un lien vers une page décrivant plus en détail l'information.

  • Utilisation de canaux RSS

    L'utilisateur d'un lecteur RSS peut consulter en un seul endroit les dernières actualités de dizaines, et parfois de centaines de sites web, sans avoir à les visiter et sans avoir à communiquer d'informations personnelles.

    L'utilisation des fils RSS par un webmaster afin de syndiquer du contenu, c'est-à-dire publier automatique sur son propre site diverses informations émanant d'autres sites.

  • Exploiter les fils RSS

    Afin d'exploiter un fil RSS proposé par un site, il est nécessaire de disposer d'un outil capable d'analyser le XML (un parseur XML) afin de le convertir en XML.